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Abstract of DE19914617 

The system has a processor with a number of 
registers that receive data from a decoder that 
receive micro instructions via a register 
identification unit The data is received in a 
packed form and the decoder is configured such 
that a specific register in the system is identified. 
An Independent claim is included for a method 
for carrying out instructions in a processor. 
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Die folgenden Angaben sind den vom Anmelder elngereichten Unterlagen entnommen 

Prufungsantrag gem. S 44 PatG ist gestellt 

(g) Prozessor und Verfahren zum Ausfuhren von Befehlen an gepackten Daten 

@ Es warden ein Verfahren und elne Vorrichtung zum — 

Ausfuhren von skalarer Gepackte-Daten-Befehle zur Ver- 
fugung gestellt GemSB elnem Aspekt der Erfindung um- 
fa&t ein Prozessor eine Mehrzahl von Registern, eine mit 
der Mehrzahl von Registern gekoppelte Registerumbe- 
nennungseinheit, einen mit der Registerumbenennungs- 
einheit gekoppelten Decodierer und eine mit dem Deco- 
dierer gekoppelte Ausftihrungseinheit partieller Breite. 
Die Registerumbenennungselnheit steilt eine Architektur- 
registerdatei zur Verfugung, um gepackte Datenoperan- 
den zu speichern, die jeweils eine Mehrzahl von Datenele- 
menten enthalten. Der Decodierer ist so konfiguriert, daS 
er einen ersten und einen zweiten Befehlssatz decodiert 
wobei jeder Befehl wenigstens ein Register in der Archi- 
tekturregisterdatei spezifiziert. Jeder der Befehle des er- 
sten Befehlssatzes spezifiziert Operationen, die an samtli- 
chen Datenelementen ausgeftlhrt warden sollen. Im Un- 
terschied dazu spezifiziert jeder der Befehle des zweiten 
Befehlssatzes Operationen, die nur an einer Untermenge 
der in dem wenigstens einen spezifizierten Register ge- 
speicherten Datenelemente durchgefGhrt werden sollen. 
Die Ausftihrungseinheit partieller Breite ist so konfigu- 
riert da(S sie sowohl von dem ersten als auch von dem 
zweiten Befehlssatz spezifizierte Operationen ausfuhrt. 
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Beschreibung dung enthait ein Prozessor eine Mehrzahl von Registern, 

, eine mit der Mehrzahl von Registern gekoppelte Register- 

IMe Erfindung bezieht sichaufeinen Prozessor miteiner umbenennungseinheit, einen mit der Registerumbenen- 

Mehrzahl von Registern und einer Registerumbenennungs- nungseinheit gekoppelten Decodierer und eine mit dem De- 

einheit, die mit der Mehrzahl von Registern gekoppelt ist, 5 codierer gekoppelte Ausfiihrungseinheit partieller Breite. 

um eine Arcbitektunregisterdatei zum Speicheni gepackter Die Registerumbenennungseinheit stellt eine Architektuire- 

Datenoperanden zur Verfligung zu stellen, wobei jeder der gisterdatei zur Verfligung, um gepackte Datenoperanden zu 

gepackten Datenoperanden eine Mehrzahl von Datenele- speichem, von denen jeder eine Mehrzahl von Datenele- 

menten aufweist Ferner bezieht sich die Erfindung auf ein menten enthait. Der Decodierer ist so konfiguriert, daBerei- 

Verfahren zum Ausfiihren eines Makrobefehls in einem sol- io nen ersten und einen zweiten Befehlssatz decodieren kann, 

chen Prozessor. Dabei verwendet der Prozessor beispiels- wobei jeder Befehl wenigstens ein Register in der Architek- 

weise die SIMD-Technologie. turregisterdatei angibL Jeder der Befehle des ersten Befehls- 

Multimedia-Anwendungen, wie beispielsweise 2D/3D- satzes spezifiziert Operationen, die an sSmtlichen der in dem 

Grafikanwendungen, Bildverarbeitung, Videokompression/ wenigstens einen spezifizierten Register gespeicherten Da- 

Dekompression, Spracherkennungsalgorithmen und Audio- 15 tenelemente ausgeflihrt werden sollen. Im Unterschied dazu 

veraibeitungen «fordern oftmals, daB die gleiche Operation spezifiziert jeder der Befehle des zweiten Befehlssatzes 

an einer grofien Anzahl von Datenelementen ausgeflihrt Operationen, die nur an einer Untermenge der in dem we- 

werden soli (was als "Datenparallelitat") bezeichnet wird. nigstens einen spezifizierten Register gespeicherten Daten- 

Jede Art von Multimediaanwendungen implementiert typi- elemente ausgeflihrt werden sollen. Die Ausfiihrungseinheit 

scherweise einen oder mehrere Algorithmen, die eine An- 20 partieller Breite ist so konfiguriert, daB sie von sowohl dem 

zahl von Gleitkomma- oder Ganzzahloperationen, wie bei- ersten als auch von dem zweiten Satz von Befehlen spezifi- 

spielsweise Addieren (ADD) oder Multiplizieren (MUL) er- zierte Operationen ausfiihren kann. 

fordem. Indem Makrobefehle zur Verfligung gestellt wer- Vorteilhafle Weiterbildungen der Erfindung sind in den 

den, deren Ausfiihrung einen Prozessor veranlaBt, die glei- UnteransprUchen gekennzeichnet. 

che Operation an mehreren Datenelementen parallel auszu- 25 Im folgenden wird die Erfindung anhand von in der 

fiihren (Einzelbefehl-Mehrfachdaten (SIMD)-Technologie, Zeichnung beschriebenen Ausfiihrungsbeispielen naher er- 

wie sie beispielsweise von der Pentium®-Prozessor-Archi- lautert. In der Zeichnung zeigen: 

tektur und dem MMX-Befehlssatz verwendet wird), wurde Fig* 1 einen gepackten ADD-Befehl, der zugehdrige Da- 

eine signifikante Verbesserung bei der Leistung von Multi- tenelemente aus einem ersten gepackten Datenoperanden 

media-Anwendungen ermoglicht (Pentium® und MMX™ 30 und einem zweiten gepackten Datenoperanden addiert. 

sind eingetragene Marken beziehungsweise Handelsbe- Fig. 2A ist eine vereinfachte Blockdarstellung, die ein 

zeichnungen der Intel Corporation in Santa Clara, Kalifor- beispielhaftes Computersystem nach einem Ausfuhrungs- 

nien) Die SIMD-Technologie ist insbesondere fur solche beispiel der Erfindung veranschaulicht. 

Systeme geeignet, die gepackte Datenformate vorsehen. Ein Fig, 2B ist eine vereinfachte Blockdarstellung, die einen 

gepacktes Datenformat ist ein solches, bei dem die Bits in 35 Beispielsatz logischer Register gemaB einem Ausfuhrungs- 

einem Register logisch in eine Anzahl von Datenelementen beispiel der Erfindung veranschaulicht. 

fester GrSBeunterteilt sind, wobei jedes Datenelement einen Fig. 2C ist eine vereinfachte Blockdarstellung, die Bei- 

separaten Wert reprasentiert. Beispielsweise kann ein 64- spielsatze logischer Register gemaB einem weiteren Ausfuh- 

Bit-Register in vier 16-Bit-Elemente aufgeteilt werden, von rungsbeispiel der Erfindung veranschaulicht. 

denen jedes einen separaten 16-Bit-Wert reprasentiert. Ge- 40 Fig. 3 ist ein Ablaufdiagramm, das die BefehlsausfUhrung 

packte-Daten-Befehle k5nnen dann separat jedes Element in nach einem Ausfuhrungsbeispiel der Erfindung veranschau- 

diesen gepackten Daten parallel verarbeiten. licht. 

Es wird auf Fig. 1 Bezug genommen, in der ein Beispiel Fig. 4 veranschaulicht das Eigebnis der Ausfiihrung eines 

eines Gepackte-Daten-Befehls veranschaulicht ist, Bei die- Befehls fiir eine partielle Breite gepackter Daten gemfiB den 

sem Beispiel addiert ein gepackter ADD-Befehl (beispiels- 45 verschiedenen Ausfiihrungsbeispielen der Erfindung. 

weise ein SIMD- ADD-Befehl) zugehSrige Datenelemente Fig. 5A veranschaulicht eine Schaltungsanoidnung zum 

eines ersten gepackten Datenoperanden X und eines zweiten Ausfiihren eines Befehls fiir gepackte Daten voller Breite 

gepackten Datenoperanden Y, um ein Etgebnis Z gepackter und fiir gepackte Daten partieller Breite gemaB einem Aus- 

Daten zu o^eugen, d. h. Xo+Yo=Zo Xi+Yi^ X 2 +Y 2 =Z2 filhrungsbeispiel der Erfindung. 

und X 3 +Y3=Z 3 . Das Packen vieler Datenelemente in ein Re- 50 Fig. 5B veranschaulicht eine Schaltungsanordnung zum 

gister bzw. einen Speicherplatz und das Benutzen einer par- Ausflihren von Befehlen an gepackten Daten voller Breite 

allelen Hardware-Ausfiihrung gestattet es der SIMD-Archi- und partieller Breite gemaB einem weiteren Ausfiihrungs- 

tektur, mehrere Operationen gleichzeitig durchzufUhren, beispiel der Erfindung. 

was zu einer signifikanten Leistungsverbesserung fiihrt. Fig. 5C veranschaulicht eine Schaltungsanordnung zum 

Beispielsweise kOnnen bei diesem Beispiel vier einzelneEr- 55 Ausfiihren von Befehlen an gepackten Daten voller Breite 

gebnisse in derselben Zeit erlangt werden, die zuvor erf or- und partieller Breite gemaB einem weiteren Ausflihrungs- 

derlich war, um ein einziges Ergebnis zu gewinnen. beispiel der Erfindung. 

Wahrend die durch die SIMD-Architektur erreichten Vor- Fig. 6 veranschaulicht eine ADD-Ausfiihrungseinheit 

teile offensichtlich sind, verbleiben Situationen, in welchen und eine MUL-AusfQhrungseinheit, die in der Lage sind, als 

es wtinschenswert ist, einzelne Eigebnisse fiir nur eine Un- 60 vier separate ADD- Ausfiihrungseinheiten bzw. vier separate 

termenge der gepackten Datenelemente zurtickzugeben. MUL^Ausfiihrungseinheiten zu arbeiten, gemaB einer bei- 

Darin besteht die der Erfindung zugrundeliegende Aufgabe. spielhafien Prozessorimplementierung von SIMD. 

Diese Aufgabe wird erfindungsgemaB durch einen Pro- Fig. 7A-7B veranschaulichen eine Operation an gepack- 

zessor mit den Merkmalen des Patentanspruchs 1 bzw. ein ten Daten voller Breite und eine Operation an gepackten Da- 

VerfahrenmitdenMerkmalendesPatentanspruchs6ge 65 ten partieller Breite, die in einer "gestaffelten" Weise ausge- 

Es werden ein Verfahren und eine Vorrichtung (Prozes- fiihrt werden. 

sor) zum Ausfiihren von Gepackte-Daten-Befehlen fiir eine Fig. 8 A veranschaulicht eine Schaltungsanordnung inner- 

partielle Breite angegeben. GemaB einem Aspekt der Erfin- halb eines Prozessors, die auf Operanden voller Breite aus 
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logischen Registern zugreift, wflhrend sie jeweils Operatio- 
nen an der haiben Breite der Operanden ausflihrt, 
v ISg. 8B ist tin Zeitdiagramm, das die Schaitungsanord- 
nung gemBB Fig. 8A weiter veranschaulicht 

Fig.9veranschauBchtehAusflihrungsb^ 5 
Ber-der-Reihe-Pipeline zum Ausflihren von Operationen an 
Operanden in einer "gestaffelten" Weise, indem ein Makro- 
befehl in eine Mehrzahl von Mikrobefehlen konveitiert 
wird, die jeweils einen Abschnitt des Operanden voller 
Breite bearbeiten. 10 

Fig. 10 ist ein Zeitschaubild, das das in Fig. 9 beschrie- 
bene Ausfiihrungsbeispiel weiter veranschaulicht. 

Fig. 1 1 ist ein Blockschaltbild, das die Dekodierlogik ver- 
anschaulicht, die beriutzt werden kann, um die decodierende 
Veraibeitung gemfifi einem Ausfiihrungsbeispiel der Erfin- 15 
dung durchzufUhren. 

Es werden ein Verfahren und eine Vorrichtung zum Aus- 
fiihren von Befehlen an gepackten Daten partieller Breite 
beschrieben. Hierbei wird die Bezeichnung "Befehl an ge- 
packten Daten voller Breite" verwendet, um einen Befehl an 20 
gepackten Daten (z. B. einen SIMD-Befehl) zu bezeichnen, 
der an sSmtlichen Datenelementen wenigstens eines gepack- 
ten Datenoperanden ausgeftihrt wird. Im Unterschied dazu 
bezeichnet der Begriff "Befehl an gepackten Daten partieller 
Breite" ganz allgemein einen Befehl an gepackten Daten, 25 
der nur eine Untermenge der Datenelemente des wenigstens 
einen gepackten Datenoperanden verarbeiten soil und der 
ein gepacktes Dateneigebnis (beispielsweise an eine Regi- 
sterdatei gepackter Daten) zuriickgibt. Beispielsweise kann 
ein skalarer SIMD-Befehl nur ein Eigebnis einer Operation 30 
zwischen dem am geringsten bewerteten Paar von Datenele- 
menten der gepackten Datenoperanden erfoidera. Bei die- 
sem Beispiel ktinnen die verbleibenden Datenelemente des 
gepackten Datenergebnisses unberiicksichtigt bleiben, da 
sie keinen Einflufi auf den skalaren SIMD-Befehl haben 35 
(beispielsweise kOnnen die verbleibenden Datenelemente 
beliebigen Inhalts stin). GemaB den verschiedenen Ausfiih- 
rungsbeispielen der Erfindung k6nnen Ausfiihrungseinhei- 
ten so konfiguriert werden, da6 sie effizient sowohl Befehle 
an gepackten Daten voller Breite (z. B. SIMD-Befehle) als 40 
auch einen Satz von Befehlen an gepackten Daten partieller 
Breite (z. B. skalare SIMD-Befehle) unterbringen kflnnen. 

In der folgenden detaillierten Beschreibung werden aus 
Griinden der ErlMuterung zahlreiche spezielle Details ange- 
geben, um ein besseres VerstSndnis der Erfindung zu eirei- 45 
chen. Ftir einen Fachmann ist es jedoch klar, da£ diese spe- 
ziellen Details nicht verwendet werden mtissen, um die Er- 
findung auszufiihren. An anderen Stellen werden gut be- 
kannte Einrichtungen, Strukturen, Schnittstellen und Pro- 
zesse nicht oder nur in Blockdarstellung gezeigt 50 



Berechtigung von Befehlen an gepackten Daten partieller 
Breite 

Betrachtet man den Umfangder Software, die fur skalare 55 
Architekturen (z,B. Einzelbefehl-Einzeldaten(SISD)-Ar- 
chitekturen), die skalare Operationen an Gleitkommadaten 
einf acher Genauigkeit, Gleitkommadaten doppelter Genau- 
igkeit und Ganzzahldaten benutzen, geschrieben worden ist, 
so ist es wiinschenswert, Entwicklem die Option zur Verfii- 60 
gung zu stellen, ihre Software auf Architekturen zu portie- 
ren, die Befehle an gepackten Daten untersttttzt, wie bei- 
spielsweise SIMD-Architekturen, ohne daB deren Software 
umgeschrieben werden muB und/oder neue Befehle gelemt 
werden mtissen. Durch die Schafiung von Befehlen an ge- 65 
packten Daten partieller Breite kann eine einf ache 0berset- 
zung alten skalaren Code in skalaren gepackten Datencode 
transformieren. Beispielsweise wSre es sehr leicht flir einen 



Compiler, skalare SIMD-Befehle aus skalarem Code zu er- 
zeugen. Wenn dann die Entwickler erkennen, daB Ab- 
schnitte ihrer Software unter Verwendung von SIMD-Be- 
fehlen optimiert werden kBnnen, kflnnen sie schrittweise 
Vorteil aus den Befehlen ftir gepackte Daten Ziehen. Selbst- 
verstfindlich ist es wahrscheinlich, daB die SIMD-Tbchnolo- 
gie benutzende Computersysteme auBerdem abwSrtskompa- 
tibel bleiben, indem sie SISD-Befehle ebenso untersttttzen. 
Jedoch machen es viele jtingere Architekturverbesserungen 
und andere hier erbrterte Faktoren vorteilhaft fiir Entwick- 
ler, zur SIMD-Tfechnologie iiberzugehen und sie auszunut- 
zen, selbst wenn zunSchst nur skalare SIMD-Befehle ver- 
wendet werden. 

Eine weitere Rechtfertigung fiir das Vorsehen von Befeh- 
len fiir gepackte Daten partieller Breite besteht in den vielen 
Vorteilen, die erreicht werden kflnnen, indem nur eine Un- 
termenge des Operanden voller Breite beaibeitet wird, ein- 
schlieBlich des reduzierten Stromverbrauchs, der erhflhten 
Geschwindigkeit, eines sauberen Ausnahmemodells und ei- 
ner erhflhten Speicherung. Wie unten erlSutert wird, kflnnen 
auf der Grundlage eines mit dem Befehl fiir gepackte Daten 
partieller Breite zur Verfdgung gestellten Hinweises Strom- 
einsparungen erreicht werden, indem selektiv diejenigen 
Hardwareeinheiten abgeschaltet werden, die zum Ausfuhren 
der gegenwSrtigen Operation nicht erforderlich sind. 

Eine weitere Situation, in welcher es nicht erwiinscht ist, 
einen Befehl fur gepackte Daten zu zwingen, einzelne Er- 
gebnisse fiir jedes Paar von Datenelementen zuriickzuge- 
ben, umfaBt arithmetische Operationen in einer Umgebung, 
die eine Hardware partieller Breite zur Verfiigung stellt. In- 
folge der Kosten- und/oder Chip-Einschrankungen ist es ttb- 
lich, fiir bestimmte arithmetische Operationen, wie bei- 
spielsweise das Dividieren, nicht die vollstandige Unterstiit- 
zung zur Verfiigung zu stellen. Ihrer Natur nach ist die Di vi- 
sionsoperation sehr lang, selbst wenn Hardware voller 
Breite (beispielsweise eine Eins-zu-eins-Korrespondenz 
zwischen Ausfiihrungseinheiten und Datenelementen) im- 
plementiert ist Folglich wird in einer Umgebung, die nur 
Operationen an gepackten Daten voller Breite untersttttzt, 
w&hrend Hardware partieller Breite zur Verfiigung gestellt 
wind, die Verzflgerung noch lSnger. Wie unten naher veran- 
schaulicht wird, kann eine Operation fiir gepackte Daten 
partieller Breite, wie beispielsweise eine Divisionsoperation 
fiir gepackte Daten partieller Breite, es selektiv bestimmten 
Abschnitten ihrer Operanden gestatten, die Divisionshard- 
ware zu umgehen. Auf diese Weise wird kein Leistungs- 
nachteil dadurch verursacht, daB nur eine Untermenge der 
Datenelemente in den gepackten Datenoperanden bearbeitet 
wird. 

Zusfitzlich kflnnen Ausnahmen, die in Verbindung mit un- 
wesentlichen Datenelementen entstehen, eine Konfusion fiir 
den Entwickler und/oder eine InkompatibiMt zwischen 
SISD- und SIMD-Maschinen verursachen. Folglich ist es 
vorteilhaft, Ausnahmen nur fiir diejenigen Datenelemente 
zu berichten, fiir die der Befehl gedacht ist Eine Unterstttt- 
zung von Befehlen flir gepackte Daten partieller Breite ge- 
stattet, daB ein vorhersagbares Ausnahmemodell erreicht 
wird, indem das Auslflsen von Ausnahmebedingungen auf 
diejenigen begrenzt wird, die in Verbindung mit solchen Da- 
tenelementen auftreten, die beaibeitet werden, oder bei wel- 
chen durch unwesentliche Datenelemente erzeugte Ausnah- 
men wahrscheinlich eine Konfusion oder InkompatibiMt 
zwischen SISD- und SIMD-Maschinen verursachen wtiide. 

SchlieBlich stellen bei Ausfiihrungsbeispielen, bei denen 
Abschnitte des gepackten Zieldatenoperanden nicht im Er- 
gebnis der Ausfiihrung einer Operation fiir gepackte Daten 
partieller Breite verfilscht werden, Befehle fiir gepackte Da- 
ten partieller Breite effektiv einen zusatzlichen Register- 
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raum zum Speichern von Daten zur Verfiigung. Wenn bei- prozessoien zu findende Befehle enthalten. Beispielsweise 
spielsweise an dem unteren Abschnitt des gepackten Daten- unterstiitzt der Prozessor 205 bei einem Ausfiihrungsbei- 
o^estaden eine Operation ausgefiihrt wird, k5nnen Daten im spiel einen Befehlssatz, der mit der Intel-32-Bit-Architektur 
oberen Abschnitt gespeichert werden und umgekehrt (IA-32) und/oder der Intel-64-Bit-Architektur (IA-64) kom- 

5 patibel istl 

Ein Beispielcomputersystem Aufierdem ist in der Befehlssatzeinheit 260 eine Spei- 

chereinheit 285 enthalten. Die Speichereinheit 285 kann ei- 
Fig. 2A ist ein vereinfachtes Blockschaltb'ild, das ein Bei- nen oder mehrere SMtze von Aichitekturregisteni (auch als 
spielcomputersystem gemfiB einem Ausfiihrungsbeispiel der logische Register bezeichnet), enthalten, die von dem Pro- 
Erfindung veranschaulicht Bei dem daigestellten Ausfilh- io zessor 205 zum Speichern von Informationen, einschlieB- 
rungsbeispiel enthfflt ein Computersystem 200 einen Prozes- lich Gleitkommadaten und gepackten Gleitkommadaten, be- 
sor 205, eine Speichereinrichtung 210 und einen Bus 215. nutzt werden. Zusatzlich k5nnen weitere logische Register 
Der Prozessor 205 ist mit der Speichereinrichtung 210 durch zum Speichern von Ganzzahldaten, gepackten Ganzzahlda- 
den Bus 215 gekoppelt Zusatzlich sind eine Reihe von Be- ten und verschiedenen Steuerdaten, wie beispielsweise einer 
nutzereingabe/Ausgabeeinrichtungen, wie beispielsweise 15 Anzeige fur die Spitze des Stapelspeichers und deigleichen, 
eine Tastatur 220 und eine Anzeige 225, ebenfalls mit dem enthalten sein. Die Begriffe Architekturregister und logi- 
Bus 215 gekoppelt Das Computersystem 200 kann dariiber sche Register werden im folgenden verwendet, urn auf das 
hinaus mit einem Netzwerk 230 iiber den Bus 215 gekoppelt Konzept der Art und Weise Bezug zu nehmen, auf welche 
sein. Der Prozessor 205 reprSsentiert eine zentrale Verarbei- Befehle einen Speicherbereich angeben, der einen einzelnen 
tungseinheit einer beliebigen Architektur, wie beispiels- 20 Operanden enthMlt So kann ein logisches Register in Hard- 
weise einer CISC-, RISC-, VLIW- oder Hybrid-Architektur. ware unter Verwendung einer beliebigen Anzahl gut be- 
Dariiber hinaus kann der Prozessor 205 auf einem oder meh- kannter, Techniken implementiert sein, einschlieBlich eines 
reren Chips implementiert sein. Die Speichereinrichtung speziellenphysikalischen Registers, eines oder mehrererdy- 
210 reprSsentiert einen oder mehrere Mechanismen zum namisch unter Verwendung eines Registerumbenennungs- 
Speichern von Daten. Beispielsweise kann die Speicherein- 25 mechanismus (detaillierter unten beschrieben) zugewiese- 
nchtung 210 einen Nur-Lese-Speicher (ROM), einen Spei- ner physikalischer Register, etc. In jedem Fall reprSsentiert 
cher nut wahlfreiem Zugriff (RAM), ein magnetisches Plat- ein logisches Register die kleinste Einheit eines durch einen 
tenspeichermedium, ein optisches Speichermedium, Hash- Befehl fiir gepackte Daten adressierbaren Speichers. 
Speicherbauelemente und/oder andere maschinenlesbare Bei dem dargestellten AusfUhrungsbeispiel ist in der 
Medien umfassen. Der Bus 215 reprSsentiert einen oder 30 Speichereinrichtung 210 ein Betriebssystem (OS) 235 und 
mehrere Busse (z. B. AGP, PCI, ISA, X-Bus, EISA, VESA eine Routine fiir gepackte Daten 240 zur Ausflihrung durch 
usw.) und Briicken (die auch als Bussteuereinrichtungen be- das Computersystem 200 gespeichert. Die Routine 240 fur 
zeichnet werden). WShrend dieses AusfUhrungsbeispiel in gepackte Daten ist eine Sequenz von Befehlen, die einen 
Bezug auf ein Einzelprozessor-Computersystem beschrie- oder mehrere Befehle fiir gepackte Daten, wie beispiels- 
ben wird, ist es klar, daB die Erfindung auch in einem Multi- 35 weise skalara SIMD-Befehle oder SIMD-Befehle enthalten 
Prozessor-Computersystem implementiert werden kann. kann. Wie unten nahererdrtert wird, gibtes Situationen, ein- 
AuBerdem ist, obwohl das vorliegende AusfUhrungsbeispiel schlieBlich Geschwindigkeits-, Stromverbrauchs- und Aus- 
in Bezug auf ein 32-Bit- und ein 64-Bit-Computersystem nahmebehandlung, in denen es erwiinscht ist, eine Opera- 
beschrieben wird, die Erfindung nicht auf ein derartiges tion nur an einer Untermenge von Datenelementen in einem 
Computersystem begrenzt 40 gepackten Datenoperanden oder einem Paar gepackter Da- 

Fig. 2A veranschaulicht zusatzlich, daB der Prozessor 205 tenoperanden durchzufUhren (oder nur fiir diese Unter- 
eine Befehlssatzeinheit 260 enthalt SelbstverstSndlich ent- menge einzelne Ergebnisse zuriickzugeben). Folglich ist es 
halt der Prozessor 205 zusMtzliche Schaltungen; jedoch sind fiir den Prozessor 205 vorteilhaft, in der Lage zu sein, zwi- 
derartige zusStzliche Schaltungen nicht fur das VerstSndnis schen Befehlen fiir gepackte Daten voller Breite und Befeh- 
der Erfindung erforderlich. Auf jeden Fall enthalt die Be- 45 len fiir gepackte Daten partieUer Breite unterscheiden zu 
fehlssatzeinheit 260 die Hardware und/oder Firmware zum kOnnen und diese entsprechend ausfiihren zu kfinnen. 
Decodieren und Ausfiihren eines oder mehrerer Befehls- Fig. 2B ist eine vereinfachte BlockdarsteUung, die Bei- 
satze. Bei dem dargestellten Ausfiihrungsbeispiel enthMlt die spielsatze von logischen Registern gemMB einem Ausfiih- 
Befehlssatzeinheit 260 eine Ddcodier/Ausfiihrungs-Einheit rungsbeispiel der Erfindung veranschauhcht Bei diesem 
275. Die Dekodiereinheit dekodiert Befehle, die von dem 50 Beispiel enthMlt die Speichereinheit 285 eine Mehrzahl ska- 
Prozessor 205 empfangen worden sind, in einen oder meh- larer Gleitkommaregister 291 (eine skalare Registerdatei) 
rere Mikrobefehle. Die Ausfiihrungseinheit fUhrt in Erwide- und eine Mehrzahl gepackter Gleitkommaregister 292 (eine 
rung der von der Dekodiereinheit empfangenen Mikrobe- Registerdatei fiir gepackte Daten). Die skalaren Gleitkom- 
fehle geeignete Operationen durch. Die Dekodiereinheit maregister 291 (z. B. die Register R0-R7) k6nnen als eine 
kann unter Verwendung einer Reihe unterschiedlicher Me- 55 als Stapel referenzierte Registerdatei implementiert sein, 
chanismen (beispielsweise einer Nachschlagetabelle, einer wenn Gleitkommabefehle so ausgefiihrt werden, daB sie 
Hardware- Implementierung, einer PLA etc.) implemoitiert kompatibel mit (to vorhandeneh, fiir die Intel-Architektur 
werd ^ n * geschriebenen Software sein sollen. Bd alternativen Aus- 

Bei dem vorliegenden Beispiel ist eine Dekodier/Ausflih- fiihrungsbeispielen jedoch k5nnen die Register 291 als eine 
rungs-Einheit 275 gezeigt, die einen Befehlssatz 280 rat- 60 flache Registerdatei behandelt werden. Bei dem dargesteU- 
hait, der sowohl Befehle fiir gepackte Daten voller Breite als ten Ausfiihrungsbeispiel ist jedes der gepackten Gleitkom- 
auch Befehle fiir gepackte Daten partieUer Breite enthfllt. maregister (z. B. XMM0-XMM7) als ein einzelnes logi- 
Diese Befehle fiir gepackte Daten kdnnen, wenn sie ausge- sches 128-Bit-Register implementiert Es ist jedoch klar, 
fiihrt werden, den Prozessor 205 veranlassen, gepackte daS breitere oder schmalere Register benutzt werden k5n- 
Gleitkommaoperationen voller/partieller Breite und/oder 65 nen, urn an eine Implementierung angepaBt zu sein, die 
gepackte Ganzzahloperationen voller/partieller Breite mehr oder wwiiger Datenelemente oder grOBere oder klei- 
durchzufiihren. ZusatzHch zu den Befehlen fiir gepackte Da- nere Datenelemente verwendet ZusStzhch kfinnen mehr 
ten kann der Befehlssatz 280 weitere in vorhandenen Mikro- oder weniger packte Gleitkommaregister 292 vorgesehen 
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sem. Ahnhch wie die skalaren Gleitkominaregister291 k6n- cher Befehl fUr gepackte Daten voller Breite ist, im Schritt 

nen die gepackten Gleitkommaregister 292 entweder als sta- 330 ein gepacktes Dateneigebnis bestimmt, indem die von 

pelreferenzierte Registeidatei oder als flache Registerdatei dem Befehl spezifizierte Operation an jedem der Datenele- 

> unplemenbert werden, wenn die gepackten Gleitkommabe- mente in dem bzw. den Operanden ausgefuhrt wird. Wenn 

feble ausgefuhrt werden 5 jedoch der Befehl ein Befehl fur gepackte Daten partieller 

Hg. 2C ist one vereinfachte Blockdarstellung, die bei- Breite ist, dann wird im Schritt 340 ein erster Abschnitt des 

spieUjafte SStze logischer Register nach einem weiteren Ergebnisses bestimmt, indem die von dem Befehl spezifi- 

Ausfiihrungsbeispiel der Erfindung veranschaulicht. Bei zierte Operation an einer Untermenge der Datenelemente 

diesem Beispiel enthalt die Speichereinheit 285 wiederum durchgeftthrt wird und indem der Rest des Ergebnisses auf 
eine Mehrzahl skalarer Gleitkommaregister 291 (eine ska- to einen oder mehrere vorgegebene Werte gesetzt wild. Bei ei- 

lare Registerdatei) und erne Mehrzahl gepackter Gleitkom- nem Ausfiihrungsbeispiel ist der vorgegebene Wert der Wert 

maregister 292 (erne Registerdatei gepackter Daten). Jedoch der jeweils einander entsprechenden Datenelemente in ei- 

werden bei dem dargestellten Ausfiihrungsbeispiel samtli- nem der Operanden. Das faeiBt, es kbnnen Datenelemente 

che gepackten Gleitkommaregister (z. B. XMMo-XMM,) von den Datenelementen eines der Operanden zu den te- 
als einander entsprechende Paare hoher 293 und niedriger 15 weils entsprechenden Datenelementen in dem gepackten 

Register 294 implementiert. Wie unten naher erortert wer- Datenergebnis "durchgeltitet" werden. Bei einem anderen 

den wird, ist es fur die Zwecke der Befehlsdekodierung vor- Ausfuhrungsbeispiel k5nnen die Datenelemente in dem ver- 

tedhaft, den logischen RegisteradreBraum ftir die gepackten bleibenden Abschnitt des Eigebnisses samtlich gelfischt (auf 

Gleitkommaregister 292 so zu organisieren, daB sich die Null gesetzt) weiden. Eine Beispiellogik zum Durchfiihren 
Paare hoher und mednger Renter durch ein einzelnes Bit 20 des Durchleitens der Datenelemente von einem der Operan- 

unterscheiden. Beispielsweise kdnnen die hohen und niedri- den zu dem Ergebnis und eine Beispiellogik zum Loschen 

gen Abschnitte yon XMMo-XMM 7 durch das MSB (most der Datenelemente in dem Ergebnis werden unten beschrie- 

signincant bit) differenziert werden. Vorzugsweise ist jedes ben. 

gepackten Gleitkommaregister 291 breit genug, um vier Fig. 4 veranschauhcht das Ergebnis der Ausfuhrung eines 
3^2-Bn-Gleitkommadaten-Elemente einfacher Genauigkeit 25 Befehls filr gepackte Daten partieller Breite gemaB den ver- 

aufzunehmen. Wie oben jedoch kOnnen breitere oder schiedenen Ausfuhrungsbeispielen der Erfindung Bei die- 

schmalere Register benutzt werden, um an Implementierun- sem Beispiel wird tine Operation an Datenelementen von 

gen angepaSt zu werden, die mehr oder weniger Datenele- zwei logischen Quellenregistern 410 und 420 durch eine 

mente bzw grBBere oder kleinerc Datenelemente verwen- Ausfuhrungseinheit 440 ausgefuhrt. Die Ausfuhrungsein- 
den. Zusatzhch konnen, wahrend die logischen gepackten 30 heit 440 enthalt tine Schaltungsanordnung und Logik zum 

Gleitkommaregister 292 bei diesem Beispiel jeweils einan- Durchftthren der von dem Befehl spezifizierten Operatio- 

der entsprechende Paare von 64-Bit-Registern aufwtisen, nen. Zusatzlich kann die Ausfuhrungseinheit 440 eine Aus- 

bei alternativen Ausfuhrungsbeispielen samtliche gepackten wahlschaltung enthalten, die es der Ausfuhrungseinheit 440 

Gleitkommaregister erne beliebige Anzahl von Registem gestattet, entweder in einem Modus fUr gepackte Daten par- 
unuassen. 35 titiler Breite oder in einem Modus fur gepackte Daten voller 

y-n. . . Breite zuarbeiten. Beispielsweise kann die Ausfuhrungstin- 

Ubersicht uber die Befehlsausfiihrung heit 440 eine Durchleitschaltung zum Durchltiten von Da- 

KT . . tenelementen von einem der logischen Quellregister 410. 

Nachdem em Beispielcomputersystem beschrieben wor- 420 zu dem logischen Zielregister 430 enthalten oder sie 
den ist, m welchem ein Ausfiihrungsbeispiel der Erfindung 40 kann eine Loschschaltung zum LOschen eines oder mehrerer 

implementiert werden kann, wird jetzt die Befehlsausfuh- Datenelemente des logischen Zielregistere 430 enthalten. 

rungbeschneben Zahlreiche andere Techniken konnen ebenfalls benutzt wer- 

3 ist em Abla£diagramm, das die Befehlsausfiihrung den, um das Ergebnis der Operation zu betinflussen, wobti 

gemaB emem Ausfuhrungsbeispiel der Erfindung veran- diese Techniken einschlieBen, daB tines der Eingangssi- 

scha^chtlmSclmttSlOwhdeinBefemdurchdenProzes- 45 gnale filr die Operation auf einen vorgegebenen Wert ge- 

sor 205 empfangen Im Schritt 320 wird die Verarbtitung zwungen wird, wie beispielsweise einen Wert, der die Ope- 

auf der Grundlage der Art des Befehls (ob es ein Befehl fur ration zwingen wiirde, ibre Identitatsfunktion durchzufUh- 

ISSS P 2 " 16 ! 1 " 3 ^ £ zum B^P^l ein skalarer ren, oder einen Wert, der durch die arithmetischen Operatio- 

SIMD-Befehl) oder em Befehl fttr gepackte Daten voller nen laufen kann, ohne eine Ausnahme (z. B. eine quiet not- 

Breite (zum Beispiel em SIMD-Befehl) ist) entweder mit 50 a-number (QNaN)) zu signalisieren. 

dem Schritt 330 oder dem Schritt340 fortgesetzt Oblicher- Bei dem veranschaulichten Beispiel wird nur das Eigeb- 

weise wird m der Dekodiertinhtit die Art des Befehls auf nis (Zq) der Operation an dem erstenPaar von Datenelemen- 

der Grundlage der m dem Befehl enthaltenen Informationen ten (Xo und Y 0 ) in dem logischen Zielregister 430 gespei- 

besummt Beispielsweise konnen die Informationen einen chert. Nimmt man an, daB die Ausfllhrungseinheit 440 tine 

Prfifix oder Suffix enthalten, der an den Befehlscode ange- 55 Durchleiflogik enthalt, so werden die verbltibenden Daten- 

bitagt oder Uber emen Duektdatenwert zur Verfilgung ge- elemente des logischen Zielregistere 430 auf die Werte aus 

steUt wud, um anzuzetgen, ob die zugehdrige Operation an den zugehdrigen Datenelementen des logischen Quelliegi. 

samthchen oder einer Untermenge der Datenelemente des stem 410 (d. h. X 3 , X 2 und X0 gesetzt WShrend das logi- 

gepackten Datenoperanden bzw. der gepackten Datenope- sche Zielregistere 430 als tin separates logisches Register 

randen ^sgefilhrt ^werden Auf diese Weise kann der 60 geztigt ist, ist es wichtig anzumerken, daB eTgleichzeitig als 

gle che Befehlscode sowohl filr OperaUonen an gepackten tines der logischen Quellregister 410, 420 dienen kann. 

Daten voller Breite als auch fttr OperaUonen an gepackten Folglich sollte es klar sein, daB das Setzen der Datenele- 

Daten partieller Breite verwendet werden. Alternativ kann mente des logischen Zielregistere 430 auf Werte aus einem 

an Satz von Befehlscodes fttr Operationen an gepackten der logischen Quellregister 410, 420 in diesem Kontext be- 

Daten partieller Breite und ein anderer Befehlscodesatz fttr 65 deuten kann, daB in diesen Datenelementen ttberhaupt 

Operationen an gepackten Daten voller Breite verwendet nichts passiert Beispielsweise kdnnen in dem FaU, daB das 

werden. logische Quellregister 410 sowohl ein logisches Quell- als 

In jedem Fall wird dann, wenn der Befehl tin herkommli- auch ein Zielregister ist, verechiedene Ausfuhrungsbtispiele 
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Vorteile daraus Ziehen, und einfach eines oder mehrere der Operanden und einem Identitatsfunktionswert 590 aus. Der 
Datenelemente, die durchgeleitet werden sollen, nicht be- Identitatsfunktionswert 590 wild grundsatzlich so ausge- 
riihrdn ' wahlt, daB das Ergebnis der Durchfiihrung der Operation 

Alternativ kann die AusfOhrungseinheit 440 eine Ltisch- 572 zwischen dem Itentitatsfunktions wert 590 und dem Da- 
logik enthalten. So werden anstelle des Durchleitens von 5 tenelementidentischdemWatdesDatenelementsist Wenn 
Werten von einem der logischen Quellregister zu dem logi- beispielsweise die Operation 572 eine Mdtiplikationsopera- 
schen Zielregister 430 diejenigen Datenelemente in dem Er- tion ware, dann ware der Identitatsfunktionswert 590 eine 
gebnis, die nicht erf brderlich sind, gelSscht. Wiederum wird Eins. In ahnlicher Weise ware dann, wenn die Operation 572 
bei diesem Beispiel nur das Ergebnis (Zo) der Operation an eine Additionsoperation ware, der Identitatsfunktionswert 
demerstenPaarvonDatenelementen(XoundY 0 )indemlo- io 590eineNuU. Auf diese Weise kann der Wert eines Daten- 
gischen Zielregister 430 gespeichert. Die verbleibenden Da- elements selektiv zu dem logischen Zielregister 430 hin- 
tenelemente des logischen Zielregisters 430 werden "ge- durchgeleitet werden, indem die entsprechenden Multiple- 
16scht" (d. h. auf Null oder auf einen anderen fiir diesen Fall xer 575-577 veranlaBt werden, den Identitatsfunktionswert 
vorgegebenen Wert gesetzt). 590 auszugeben. 

15 Bei den oben beschriebenen Ausfiihrungsbeispielen war 
Hardware voller Breite die Schaltung fest verdrahtet, so daB die Operationen par- 

tieller Breite an dem am geringsten bewerteten Datenele- 

Die Fig. 5A-5C veranschaulichen Ausfuhrungseinheiten mentabschnitt durchgeflihrt wurden. Es ist klar, daB die 
540, 560 bzw. 580, welche sowohl Befehle ftir gepackte Da- Operation an anderen Datenelementabschnitten als die dar- 
ten voller Breite als auch fiir gepackte Daten paitieller 20 gestellten durchgefiihrt werden kann. Darilber hinaus k6n- 
Breite ausflihren ktfnnen. Die in den Ausfiihrungseinheiten nen, wie oben beschrieben wurde, die zu bearbeitenden Da- 
gemaB Fig. 5A und 5C enthaltene Auswahllogik stellt eine tenelemente durch Software konfigurieibar gemacht wer- 
beispielhafte Durchleitlogik dar, wahrend die Auswahllogik den, indem samtliche der Operationen mit einem Multiple- 
gemaB Fig. 5B fiir eine Lflschlogik, die benutzt werden xer oder deigleichen und nicht nur eine Untennenge der 
kann, repriisentativ ist. Bei den dargestellten Ausfiihrungs- 25 Operationen, wie es in den Fig. 5A-5C dargestellt ist, ge- 
beispielen enthalten die Ausfiihrungseinheiten 540, 560 und koppelt werden. Wahrend eine Durchleit- und eine L6schlo- 
580 jeweils eine geeignete Logik, Schaltungsanordnung gik als zwei Optionen zum Behandeln der sich eigebenden 
und/oder Firmware zum gleichzeitigen Ausfiihren einer Datenelemente, die Operationen entsprechen, die nicht be- 
Operation 570, 571 und 572 an den Operanden voller Breite riicksichtigt werden sollen, beschrieben werden, kijnnen 
(XundY). 30 dariiber hinaus alternative Ausfiihrungsbeispiele andere 

Es wird jetzt auf Fig. 5A Bezug genommen, bei der die Techniken benutzen. Beispielsweise kann ein QNaN als ei- 
Ausfiihrungseinheit 540 eine AuswahUogik (zum Beispiel ner der Operanden einer Operation eingegeben werden, de- 
Multiplexer (MUX) 555-557) enthait, urn zwischen einem ren Ergebnis vemachiassigt wenien soil. Auf diese Weise 
durch die Operation 570 erzeugten Wert und einem aus ei- leiten Operationen, die mit dem IEEE 754-Standard, IEEE 
nem entsprechenden Datenelement eines der Operanden 35 std. 754-1985, veroffentlicht am 21. Marz 1985, ilberein- 
herruhrenden Wert auszuwahlen. Die MUX 555-557 k5n- stimmen, ein NaN zu dem Ergebnis weiter, ohne eine arith- 
nen beispielsweise durch ein Signal gesteuert werden, das metische Ausnahme auszul6sen. 

anzeigt, ob die gerade ausgefiihrte Operation eine Operation Wahrend keine deutliche GeschwindigkeitserhBhung bei 
an gepackten Daten voller Breite oder eine Operation an ge- den oben beschriebenen Ausfiihrungsbeispielen erreicht 
packten Daten partieller Breite ist Bei alternativen Ausfiih- 40 wird, da die voile Breite der Operanden parallel verarbeitet 
rungsbeispielen kann eine zusatzliche Hexibilitat dadurch werden kann, ist es klar, daB der Stromverbrauch reduziert 
erreicht werden, daB eine zusatzliche MUX fiir das Daten- werden kann, indem diejenigen der Operationen abgeschal- 
element 0 eingescblossen wird und/oder jede MUX unab- tet werden, deren Ergebnisse vemachiassigt werden. So 
hangig gesteuert wird. Verschiedene Einrichtungen zum kflnnen betrachtliche Energieeinsparungen erTeicht werden. 
Schaffen einer MUX-Steuerung sind mBglich. GemaB ei- 45 Dariiber hinaus kann bei Verwendung von QNaNs und/oder 
nem Ausfiihrungsbeispiel kann eine solche Steuerung aus von Identitatsfunktionswerten ein vorhersagbares Ausnah- 
dem Befehl selbst hOTUhren, oder aus ihm abgeleitet werden memodell aufrechterhalten werden, indem vennieden wird, 
oder sie kann durch einen Direktwert zur Verfilgung gesteUt daB Ausnahmen durch Datenelemente ausgetost werden, die 
werden. Beispielsweise kann ein 4-Bit-Direktwert, der dem nicht Teil der Operation an gepackten Daten partieller Breite 
Befehl zugeordnet ist, verwendet werden, um eine direkte 50 sind. Folglich sind die berichteten Ausnahmen auf diejeni- 
Steuerung da: MUX 555-557 durch Software zu gestatten. gen begrenzt, die in Verbindung mit denjenigra Datenele- 
Diejenigen Multiplexer, die zu einer Eins in dem Direktwert menten entstehen, an welchen die Operation fiir gepackte 
gehOren, kflnnen angewiesen wwden, das Ergebnis der Ope- Daten partieller Breite vorgibt zu arbeiten. 
ration auszuwahlen, wahrend diejenigen Multiplexer, die zu Fig. 6 veranschaulicht eine aktuelle Prozessorimplemen- 
emer Null gehGren, veranlaBt werden k6nnen, das Durchlei- 55 tierung einer arithmetisch-logischen Einheit (ALU), die 
ten von Daten auszuwahlen. Selbstverstandlich kann eine zum Ausflihren von Befehlen fiir gepackte Daten voller 
grSBere oder geringere Auflttsung bei verschiedenen Imple- Breite verwendet werden kann. Die ALU gemaB Fig. 6 ent- 
mentienmgen erreicht werden, indem mehr oder weniger halt die Schaltung, die zum Ausfiihren von Operationen an 
Bits zum Darstellen des Direktwerts benutzt werden. der vollen Breite der Operanden (d. h. an samtlichen Daten- 

Es wird jetzt auf Fig. 5B Bezug genommen, bei der die 60 elementen) erforderlich ist Fig. 6 zeigt dariiber hinaus, daB 
Ausfiihrungseinheit 540 eine Auswahllogik (z. B. Multiple- die ALU mehrere unterschiedHche Arten von Ausfiihrungs- 
xer 565-567) zum Auswahlen zwischen einem durch eine einheiten enthalten kann. Bei diesem Beispiel enthait die 
Operation 571 erzeugten Wert und einem vorgegebenen ALU zwei unterschiedliche Arten von Ausfiihrungseinhei- 
Wert (z. B. Null) enthait Wie oben, kttnnen die Multiplexer ten zum Ausfiihren unterschiedUcher Arten von Operatio- 
565-567 sich unto einer gemeinsamen Steuerung befinden 65 nen (z. B. verwenden bestimmte ALUs separate Einheiten 
oder unabhangig gesteuert warden. zum Durchfiihren von ADD- und MUL^Operationen). Die 

Die Durchleitlogik gemaB Fig. 5C (z.B. Multiplexer ADD-Ausfiihrungseinheit und die MUL-Ausfiihnmgsein- 
575-576) wahlt zwischen einem Datenelement eines der heit sind jeweils in der Lage, als vier separate ADD- Ausfiih- 
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rungseinheiten bzw. vier separate MUL-Ausfiihrungseinhei- aus den physikalischen Registem zugegriffen wird. Nach 
ten betrieben zu werden. Altemativ kann die ALU eine oder dem ZugrifiF auf die Operanden voUer Breite aus den Regi- 
mehrere MultipUziere-AkkumuUere(MAC>Einheiten ent- stern werden die Operanden in die niedrig und hoch bewer- 
halten, die jeweils in der Lage sind, mehr alsnur eine Art ei- tete Segmente unterteilt (z. B. unter Verwendung von Latch- 
no: Operation durchzufilhren. Wahrend die folgenden Bei- 5 Speichern und Multiplexern) und sequential unter Verwen- 
spiele die Verwendung von ADD- und MUL-AusfUhrungs- dung derselben Hardware ausgefUhrt. Die resultierenden Er- 
einheiten und Gleitkommaoperationen unterstellen, ist es gebnisse halber Breite werden gesammelt und dann gleich- 
klar, dafi andere Ausfiihrungseinheiten, wie beispielsweise zeitig in ein einziges logisches Register geschrieben. 
MAC und/oder Ganzzahloperationen ebensogut verwendet Im Unterschied dazu wird bei dem zweiten Ausfiihrungs- 
werden kfoinen. Ferner kann es vorzuziehen sein, eine Im- 10 beispiel jeder 128-Bit-Operanden enthaltende logische Re- 
plementierung partieller Breite zu benutzen (z. B. eine Im- gister spezifizierende Makrobefehl in zumindest zwei Mi- 
plementierung mit weniger als einer Eins-zu-eins-Korre- krobefehle unterteilt, die jeweils an nur der HiUfte der Ope- 
spondenz zwischen den Ausfiihrungseinheiten und den Da- randen operieren. Somit werden die Operanden in ein hoch 
tenelementen) sowie eine zusatzliche Logik, zum Koordi- und ein niedrig bewertetes Segment unterteilt und jeder Mi- 
nieren der erneuten Verwendung der Ausfiihrungseinheiten, 15 krobefehl bewirkt separat, daB nur auf die Haifle der Ope- 
wie es unten beschrieben wird. randen aus den Registem zugegriffen wird. Diese Art einer 

Unterteilung ist bei einer SIMD-Architektur mSglich, weil 
Hardware partieller Breite und "gestaffelte AusfUhrang" jeder der Operanden unabhMngig von dem anderen ist. WSh- 

rend Implementierungen des zweiten Ausfiihrungsbeispiels 
Die Fig. 7A-7B veranschaulichen eine Operation fiir ge- 20 die Mikrobefehle in einer beliebigen Reihenfolge (entweder 
packte Daten voller Breite bzw. eine in einer "gestaffelten" in einem Inder-Reihenfolge oder einem AuBer-der-Reihe- 
Weise durchgefiihrte Operation fur gepackte Daten par- Ausfiihrungsmodell)ausfiihrenk6nnen,bewirkendiejewei- 
tieller Breite. Im Kontext dieses Ausfiihrungsbeispiels be- ligen Mikrobefehle, daB die von dem Makrobefehl spezifi- 
zieht sich die "gestaffelte Ausfiihrung" auf den ProzeB des zierte Operation unabhSngig oder separat an dem niedrig 
Unterteilens jedes der Operanden eines Befehls in separate 25 und hoch bewerteten Segment der Operanden durchgefiihrt 
Segmente und die sequentielle Verarbeitung jedes Segments wild. Daruber hinaus bewirkt jeder Mikrobefehl, daB die 
unter Verwendung derselben Hardware. Die Segmente wer- Halfte der sich ergebenden Operanden in ein einziges logi- 
den sequentiell verarbeitet, indem eine VerzSgerung in die sches Zielregister, das durch den Makrobefehl spezifiziert 
Verarbeitung aufeinanderfolgender Segmente eingefiihrt ist, geschrieben wird. 

wird. Wie es in den Fig. 7A-7B veranschaulicht ist, werden 30 Wahrend Ausfuhrungsbeispiele beschrieben werden, bei 
inbeidenI^llendiegepacktenDatenoperandeninein ,, hoch welchen 128-Bit-Operanden in zwei Segmente unterteilt 
bewertetes Segment" (Datenelemente 3 und 2) und ein werden, kOnnten alternative Ausfuhrungsbeispiele grtfBere 
"niedrig bewertetes Segment" (Datenelemente 1 und 0) un- oder kleinere Operanden verwenden und/oder diese Operan- 
terteilt. Bei dem Beispiel gemMB Fig. 7A wird das niedrig den in mehr als zwei Segmente unterteilen. Zusatzlich kfinn- 
bewertete Segment verarbeitet, wahrend das hoch bewertete 35 ten, obwohl zwei Ausfiihrungsbeispiel zum Durchfiihren ei. 
Segment verzogert wird. Nachfolgend wird das hoch bewer- ner gestaffelten Ausfiihrung beschrieben wurden, alteraa- 
tete Segment verarbeitet, und es wird ein Ergebnis voller tive Ausfuhrungsbeispiele andere Techniken verwenden. 
Breite erzielt. Bei dem Beispiel gemBB Fig. 7B wird das 

niedrig bewertete Segment verarbeitet, wahrend die Thtsa- Erstes eine "gestaffelte Ausfiihrung" benutzendes Ausfiih- 
che, ob das hoch bewertete Datensegment veraibeitet wild, 40 ~ rungsbeispiel 

von der Implementierung abhangig ist Beispielsweise 

braucht das hoch bewertete Datensegment nicht verarbeitet Fig. 8A veranschaulicht eine Schaltungsanordnung inner- 
zu werden, sofern das zugehfirige Ergebnis auf Null gesetzt halb eines Prozessors gemSfl einem ersten Ausfiihrungsbei- 
werden soli. ZusStzlich ist es klar, daB dann, wenn das hoch spiel, die auf Operanden voller Breite aus den logischen Re- 
bewertete Datensegment nicht verarbeitet wird, sowohl das 45 gistern zugreift, aber die die Operationen jeweils an der 
hoch als auch das niedrig bewertete Datensegment zur glei- Halfte der Breite der Operanden durchfiihrt Dieses Ausfiih- 
chen Zeit bearbeitet werden kfinnen. In Shnlicher Weise rungsbeispiel unterstellt, daB die Prozessorausfiihrungsma- 
kdnnen bei einer Implementierung voller Breite (z. B. einer schine in der Lage ist, einen Befehl pro Ttozyklus zu verar- 
Implementierung mit einer Eins-zu-Eins-Korrespondenz beiten. Als Beispiel sei angenommen, daB die folgende Se- 
zwischen Ausfiihrungseinheiten und Datenelementen) die 50 quenz von Befehlen ausgefUhrt wird: ADD X,Y; MUL A3, 
hoch und niedrig bewerteten Datensegmente gleichzeitig Zum Zeitpunkt T werden jeweils 128 Bits von X und 
verarbeitet werden, wie es in Fig. 7A gezeigt ist. 128 Bits von Y aus den jeweiligen physikalischen Registem 

Obwohl im folgenden nur Ausfuhrungsbeispiele be- ttber die Ports 1 und 2 gewonnen bzw. gelesen. Die niedriger 
schrieben werden, die nur ADD- und MUL-Ausfiihrungs- bewerteten Datensegmente, namlich die unteren 64 Bits, 
einheitenaufweisen f ki5nnendartiber hinaus auch andere Ar- 55 von sowohl X als auch Y werden an die Multiplexer 802 und 
ten von Ausfiihrungseinheiten, wie beispielsweise MAC- 804 weitergeleitet und dann weiter zu den Ausfiihrungsein- 
Einheiten, v^wendet warden. heiten fiir die Vararbeitung. Die htther bewerteten Datenseg- 

Wahrend es eine Reihe unterschiedlicher Wege gibt, auf mente, ntoUich die heheren 64 Bits von X und Y werden in 
welchen die gestaffelte Ausfiihrung von Befehlen erreicht den Verzttgerungselementen Ml und M2 gehalten. Zum 
werden kann, beschreiben die folgenden Abschnitte zwei 60 Zeitpunkt T+l werden die h5her bewerteten Datensegmente 
exemplarische Ausfuhrungsbeispiele, urn diesen Aspekt der von X und Y aus den VerzGgenmgselementen Ml und M2 
Erfindung zu veranschaulichen. Insbesondere empfangen gelesen und an die Multiplexer 802 und 804 weitergeleitet 
beide der beschriebenen Ausfuhrungsbeispiele jeweils den- und dann weiter zu den Ausfiihrungseinheiten zur Verarbei- 
selben Makrobefehl, der 128-Bit-Operanden enthaltende lo- tung. Grundsatzlich gestattet der VerzOgerungsmechanis- 
gische Register spezifiziert. 65 mus des Speicherns der h5ho: bewerteten Datensegmente in 

Bei dem ersten Ausfiihrungsbeispiel bewirkt jeder Ma- den Verzflgerungselementen Ml und M2 einer N-Bit-Hard- 
krobefdil, der 128-Bit-Operanden enthaltende logische Re- ware (N=64 in diesem Beispiel), 2N-Bits von Daten zu ver- 
gistor spezifiziert, daB auf die voile Breite der Operanden arbeiten. Die niedrig bewerteten Eigebnisse aus der Ausfilh- 
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rungseinheit werden in dem Verzdgerungselement M3 ge- 
halten, bis die htiher bewerteten Ergebnisse bereit sind. Die 
Ergebnisse beider Verarbeitungsschritte werden dann in die 
Registerdatei 800 liber den Port 3 zurttckgeschrieben. Man 
erinnere sich, daB im Falle einer Operation fUr gepackte Da- 
ten partieller Breite ein oder mehrere Datenelemente des 
niedrig oder hoch bewerteten Ergebnisses auf einen vorge- 
gebenen Wert (z. B. Null oder den Wert eines entsprechen- 
den Datenelements in entweder X oder Y) anstelle der Aus- 
gabe der ADD- oder MUL-Operation gezwungen werden 
kflnnen. 

Zum Zeitpunkt T+l kann dariiber hinaus der MUL-Be- 
fehl gestartet worden sein. Somit kSnnen zum Zeitpunkt 
T+l 128 Bits von A und B jeweils von ihren zugehttrigen 
Registerri tiber die Ports 1 und 2 gelesen worden sein. Die 
niedriger bewerteten Datensegmente, nBmlich die unteren 
64 Bits, von sowohl A als auch B, k5nnen in die Multiplexer 
806 und 808 geleitet werden. Nachdem die h6her bewerte- 
ten Bits von X und Y aus den Verzflgerungselementen Ml 
und M2 entf ernt und in die Multiplexer 806 und 808 geleitet 
worden sind, kBnnen die hdher bewerteten Bits von A und B 
im Speicber der Verzogerungselemente Ml und M2 gehal- 
ten werden. Die Ergebnisse beider Verarbeitungsschritte 
werden dann in die Registerdatei 800 uber den Port 3 zu- 
riickgeschrieben. 

Somit werden gemSB einem Ausfiihrungsbeispiel der Er- 
findung AusfUhrungseinheiten voigesehen, die nur die 
Haifte der Hardware enthalten (z.B. zwei ADD-Ausfiih- 
rungseinheiten einfacher Genauigkeit und zwei MUL-Aus- 
fiihrungseinheiten einfacher Genauigkeit) anstelle der Aus- 
fUhrungseinheiten, die zur parallelen Verarbeitung der vol- 
len Breite der Operanden erforderlich sind, wie sie in einem 
gegenwSrtigen Prozessor zu finden sind. Diese Ausfiih- 
rungsform zieht Vorteil aus einer statistischen Analyse, die 
zeigt, daB Multimedia-Anwendungen etwa 50% ADD-Be- 
fehl^und"50%"MUI^Befehle va^nden7AufliSncS^~ 
lage dieser Statistik unterstellt dieses AusfUhrungsbeispiel, 
daB Multimedia-Befehle grundsatzlich dem folgenden Mu- 
ster folgen: ADD, MUL, ADD, MUL, etc. Durch Verwen- 
den der ADD und MUL-Ausfuhrungseinheiten in der oben 
beschriebenen Weise sorgt die vorliegende Erfindung fur 
eine optimale Verwendung der AusfUhrungseinheiten, wo- 
bei sie eine mit gegenwartigen Prozessoren vergleichbare 
Leistung zu niedrigeren Kosten ermoglicht 
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ADD-Ausfiihrungseinheiten zunfichst Additionen an den 
zwei niedrigen 32-Bit-Werten durch, gefolgt von einer Ad- 
dition an den h&heren 32-Bit-Werten zum Zeitpunkt T+l. 
Im Falle einer MUL-Operation verhalten sich die MUL- 
AusfUhrungseinheiten in der gleichen Weise. Diese Fahig- 
keit zu einer Verwendung gegenwSrtig verfUgbarer 64-Bit- 
Hardware, um 128-Bit-Daten zu verarbeiten, stellt einen si- 
gnifikanten Kostenvorteil fiir Hard ware-Hersteller daz 

Wie oben beschrieben, werden die ADD- und MUL-Aus- 
fUhrungseinheiten gemMB dem vorliegenden Ausfiihrungs- 
beispiel erneut verwendet, um eine zweite ADD- oder 
MUL-Operation bei einem nachfolgenden Tkktzyklus er- 
neut auszufUhren. SelbstverstMndlich werden im Fall eines 
Befehls fiir gepackte Daten partieller Breite die AusfUh- 
rungseinheiten erneut verwendet, aber die Operation wird 
nicht notwendigerweise erneut ausgefUhrt, da die Stromver- 
sorgung zur AusfUhrungseinheit selektiv abgeschaltet wer- 
den kann. In jedem Fall zieht, wie oben beschrieben wurde, 
dieses Ausfiihrungsbeispiel fUr diese Neu- Verwendung bzw. 
"gestaffelte AusfUhrung" Vorteil aus dem statistischen Ver- 
halten von Multimedia-Anwendungen. 

Wenn ein zweiter ADD-Befehl einem ersten ADD-Befehl 
folgt, kann der zweite ADD-Befehl durch eine Einplanungs- 
einheit (scheduling unit) verzdgert werden, um den ADD- 
AusfUhrungseinheiten zu gestauen, den ersten ADD-Befehl 
abzuschlieBen, bzw. genauer, den ADD-Befehl fiir das hd- 
her bewertete Datensegment abzuschlieBen. Der zweite 
ADD-Befehl kann dann mit der AusfUhrung beginnen. Al- 
ternate kann bei einem AuBer-der-Reihe-Prozessor die Ein- 
planungseinheit bestimmen, daB ein MUL-Befehl, der sich 
weiter hinten im Befehlsstrom befindet, auBer der Reihe 
ausgefUhrt werden kann. Wenn dies der Fall ist, kann die 
Einplanungseinheit die MUL-AusfUhrungseinheiten infor- 
mieren, mit der Verarbeitung des MUL-Befehls zu begin- 
nen. We nn keine MUL-Befehle zur Verarbeitun g zum Zeit- 



punkt T+l verfUgbar sind, gibt der Einplaner keinen dem er- 
sten ADD-Befehl folgenden Befehl aus, womit den ADD- 
AusfUhrungseinheiten Zeit gegeben wird, den ersten ADD- 
Befehl abzuschlieBen, bevor der zweite ADD-Befehl begon- 
40 nenwird. 

Noch ein weiteres Ausfiihrungsbeispiel der Erfindung ge- 
stattet, daB "back-to-back"-ADD- oder -MUL-Befehle aus- 
gegeben werden, indem die Befehle auf den gleichen Aus- 
fUhrungseinheiten in halben Tfcktzyklen anstelle von vollen 
Fig. 8B ist ein Zeitdiagramm, das die Schaltung gemSB 45 Tfektzyklen ausgefUhrt weiden. Die AusfUhrung eines Be- 



Fig. 8A nSher veranschaulicht. Wie es in Fig. 8B veran 
schaulicht ist, fiihren die beiden ADD-Ausfiihrungseinhei- 
ten dann, wenn der Befehl "ADD X,Y" zum Zeitpunkt T 
ausgegeben wird, zunachst eine Addition der niedriger be- 
werteten Datensegmente oder der niedriger bewerteten bei- 
den gepackten Datenelement gemSB Fig. 1, nSmlich XqYo 
und Xi Yi aus. Zum Zeitpunkt T+l wird die ADD-Operation 
an den verbleibenden zwei Datenelementen der Operanden 
durch dieselben AusfUhrungseinheiten durchgefUhrt, und 
die nachfolgenden zwei Datenelemente des h5her bewerte- 
ten Datensegments werden addiert, namlich X 2 Y 2 und 
X3Y3. WUhrend das obige AusfUhrungsbeispiel unter Be- 
zugnahme auf ADD- und MUL-Operationen unter Verwen- 
dung von zwei AusfUhrungseinheiten beschrieben wurde, 
ktinnen alternative Ausfiihrungsbeispiele eine beliebige An- 
zahl von AusfUhrungseinheiten verwenden und/oder eine 
beliebige Anzahl unterschiedlicher Operationen in einer ge- 
staffelten Weise ausfiihren. 

GemSB diesem AusfUhrungsbeispiel kann eine 64-Bit- 
Hardware verwendet werden, um 128-Bit-Daten zu verar- 
beiten. Ein 128-Bit-Register kann in vier 32-Bit-Elemente 
unterteilt werden, von denen jedes einen separaten 32-Bit- 
Wert reprasentiert Zum Zeitpunkt T fiihren die beiden 



fehls in einem halben Taktzyklus "verdoppelt" effektiv die 
Hardware, d. h. macht die Hardware zweimal so schnell. 
Auf diese Weise k6nnen die ADD- oder MUL-Ausftih- 
rungseinheiten wShrend jedes Taktzyklus verfUgbar sein, 
um einen neuen Befehl zu verarbeiten. Eine verdoppelte 
Hardware gestattet, daB die Hard wareeinheiten zweimal so 
effektiv ausfiihren, wie eine einfache Hardware, die nur bei 
vollstindigen Taktzyklen ausfiihrt Eine derart verdoppelte 
Hardware erfordert signifikant mehr Hardware, kann jedoch 
effektiv den Befehl im halben Taktzyklus verarbeiten. 

Es ist klar, daB Modifikationen und Variationen der Erfin- 
dung von der obigen Lehre abgedeckt werden und innerhalb 
des Umfangs der anMngigen AnsprUche liegen ktinnen, 
ohne vom Geist und Umfang der Erfindung abzuweichen. 
60 Beispielsweise ktfnnen, obwohl nur zwei AusfUhrungsein- 
heiten oben beschrieben wurden, beliebig viele logische 
Einheiten zur VerfUgung gestellt werden. 
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Zweites eine "gestaffelte AusfUhrung" verwendendes Aus- 



GemgB einem altemativen AusfUhrungsbeispiel der Er- 
findung wird die gestaffelte AusfUhrung eines Operanden 
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voUerBrateerrdcht,iiuiemeinMakrobefehlfareinevoUe der Mikrobefehl liest und verarbeitet separat ein 64-Bit-Seg- 
Breite in zumindest zwei Mikrobefehle konvertiert wird, die ment der 128-Bit-Operanden. Eine der Operationen (z B 
jeweils annurder Halfte der Operanden operieren. Wie un- die niedriger bewertete Operation) wird zunachst von den 
ten naher beschrieben wird, kann dann, wenn die Makrobe- 64-Bit-Hardware-Einheiten ausgefUhit Dann fiihrt dieselbe 
fehle eine Operation fiir gepackte Daten partieller Brcite 5 64-Bit-Hardware-Einheit die hoher bewertete Operation 
spezifizieren, eine bessere Leistung erreicht werden, indem aus. Es ist klar, daB kein Befehl oder auch mehrere Befehle 
Mikrobefehle eliminiert werden, die zum Bestimmen des zwischen der niedriger und der hfiher bewerteten Operation 
Ergebnisses partieller Breite nicht erforderlich sind. Auf ausgefiihrt werden konnen. 

diese Weise werden die Einschrankungen der Prozessorres- Obwohl das obige Ausfllhrungsbeispiel beschieibt, daB 
sourcen reduziert, und der Prozessor wird nicht unnOtiger- 10 der Makrobefehl in zwei Mikrobefehle unterteilt wild kttn- 
weise nut wirkungslosen Mikrobefehlen okkupiert. Obwohl nen alternative Ausfunrungsbeispiele den Makrobefehl in 
die folgende Beschreibung unter BerUcksichtigung eines mehr als zwei Mikrobefehle unterteilen. Wabrend Kg. 9 
speziellen Registerumbenennungsverfahrens beschrieben zeigt, daB die gepackten Gleitkomma-Daten an eine Retire- 
lst, ist es klar, daB andere Registerumbenennungsmechanis- ment-Registeruatei mit Y • 2 64-Bit-Registern, die jeweils 
men ebenfalls un Rahmen der Erfindung benutzt werden 15 als hoch oder niedrig bezeichnet sind, zurtlckgibt, k5nnen 
konnen. Das unten beschriebene Registerumbenennungs- alternative Ausfunrungsbeispiele eine Retirement-Register- 
verfahren unterstellt die Verwendung einer Register-Mas- datei mit Y 128-Bit-Registem verwenden. Zusatzlich k6n- 
Tabelle (RAT), ernes Umordnungspuffers (ROB) und eines nen, wahrend ein Ausfuhrungsbeispiel beschrieben ist, das 
Retirement-Puffers, wie sie im Detail in dem US-Patent Nr. einen Registerumbenennungsmechanismus mit einem Um- 
5,446,912 beschrieben sind. Alternative Registerumbenen- 20 ordnungspuffer und einer Retirement-Registeniatei auf- 
nungsverfahren, wie sie beispielsweise im US-Patent Nr. weist, alternative Ausfunrungsbeispiele einen beliebigen 
5,197,132 beschrieben sind, konnen ebenfalls implementiert Registerumbenennungsmechanismus verwenden. Beispiels- 
we I. * weise verwendet der Registerumbenennungsmechanismus 

Fig. 9 veranschaulicht ein Ausfuhrungsbeispiel einer gemaB dem US-Patent Nr. 5,197,132 eine Vorgeschichte- 
Pipehne zum Durchfuhren von Operationen an Operanden 25 Warteschlange und eine Back-up- Abbildung 
in einer "gestaffelten" Weise, indem ein Makrobefehl in eine Fig. 10 ist ein Zeitdiagramm, das das in Fig. 9 bescbrie- 
Mehrzahl von Mikrobefehlen konvertiert wird, die jeweils bene Ausfuhrungsbeispiel naher veranschaulicht. Zum Zeit- 
emen Absclmitt der Operanden voller Breite bearbeiten. Es punkt T tritt on Makrobefehl "ADD X.Y" in die Dekodier- 
sei angemerkt, daB verschiedene andere Stufen der Pipeline, stufe der Pipeline gemaB Fig. 9 ein. Beispielsweise ist der 
zum Beispiel erne "Vorab-Heranhol-Stufe", nicht im Detail 30 Makrobefehl bier ein 128-Bit-Befehl. Der 128-Bit-Makro- 
gezeigt sind, um die Erfindung nicht unnotigerweise zu ver- befehl wird in zwei 64-Bit-Mikrobefehle konvertiert nam- 
dunkeln. Wie vminschaulicht, wird an der Dekodierstufe lich die hoch bewertete Operation "ADD X H ,Y H " und die 
der Pipeline ein Makrobefehl fur eine voile Breite empfan- niedrig bewertete Operation "ADD X L ,Y L ". Jeder Mikrobe- 
gen, der logische Quellregister spezifiziert, die jeweils einen fehl bearbeitet dann ein Datensegment, das zwei Datenele- 
Operanden voller Breite (z.B . 128 B its) speichem. Bei- 35 mente enthalt. Beispielsweise kann zum Zeit punkt T die 
spielsweise sind die beschriebenen Operanden gepackte " niedrig bewertete Operation durch eine 64-Bit-Ausfiih- 
128-Bit-Gleitkomma-Datenoperanden. Bei diesem Beispiel rungseinheit ausgefiihrt werden. Dann wird zu einem ande- 
untersttitzt der Prozessor Y logische Register zum Speichern ren Zeitpunkt (z. B. zum Zeitpunkt T+N) die h6her bewer- 
gepackter Gleitkomma-Daten. Der Makrobefehl wird in Mi- tete Operation durch dieselbe 64-Bit-AusfUhrungseinheit 
krobefehle konvertiert, namhch eine "hoch bewertete Ope- 40 ausgefiihrt. Dieses Ausfuhrungsbeispiel der Erfindung ist 
ration" und erne "niedrig bewertete Operation", die jeweils somit insbesondere fiir die Verarbeitung von 128-Bit-Befeh- 
bewirken, daB die Operation des Makrobefehls anderhal- len unter Verwendung vorhandener 64-Bit-Hardwaresy- 
ben Breite der Operanden (z. B . 64 Bits) durchgefiihrt wird. steme ohne signifikante Veranderungen der Hardware geeig- 
Die zwei Mikrobefehle fiir die halbe Breite bewegen sich neL Die vorhandenen Systeme kSnnen leicht erweitert wer- 
dann in erne Registerumbenennungsstufe der Pipeline. Die 45 den, so daB sie eine neue Abbildung zum Behandeln ge- 
Registerumbenennungsstufe enthalt eine Anzahl von Regi- packter Gleitkomma-Daten zusStzlich zu den vorhandenen 
sterabbildungs- und Umordnungspuffern. Die logischen logischen Registerabbildungen enthalten 
Quellregister jedes Mikrobefehls sind Zeiger auf spezielle Es wird jetzt auf Fig. 11 Bezug genommen; anhand der 
Registereintrage m emer RegisterabbildungstabeUe (z. B. die Dekodierlogik beschrieben wird, die gemSB einem Aus- 
einer RAT). Die Eintrage in der RegisterabbfldungstabeUe 50 fiihrungsbeispiel der Erfindung verwendet werden kann 
wiederum zeigen auf den Ort des physikalischen Quellspei- Kurz gesagt empfangen bei dem dargestellten Ausfiihrungs- 
cherplatzes m einem ROB oder in einem Retirement-Regi- beispiel eine Mehrzahl von Decodierern 1110, 1120 und 
ster. GemMfi einem Ausfiihrungsbeispiel wird, um die oben 1130 jeweils einen Makrobefehl und konvertieren ihn in ei- 
beschriebenen hoch und niedrig bewerteten Operationen nen Mikrobefehl Dann wird die Mikrooperation hinab zum 
halber Breite unterzubringen, eine RAT fiir gepackte Gleit- 55 Rest der Pipeline gesendet. Selbstverstandlich sind nicht N 
komma-Daten nut Y • 2 EintrSgen vorgesehen. Somit wird Mikrobefehle fiir die Ausfiihrung jedes Makrobefehls erfor- 
beispielsweise ansteUe einer RAT mit den Eintragen fiir 8 derlich. FolgUch ist es ttblicherweise der Fall, daB nur eine 
logische Register erne RAT mit 16 Eintragen erzeugt, wobei Untermenge von Mikrobefehlen zur Verarbeitung durch den 
jederEintragentweder als "hoch" oder als "niedrig" adres- Rest der Pipeline eingereiht wird. 
siert wird. Jeder Eintrag identifiziert eine 64-Bit-Quelle, die 60 Wie oben beschrieben, konnen gepackte Datenoperatio- 
entweder einem hohen oder einem niedrigen Teil des logi- nen als zwei Mikrobefehle halber Breite implementiert wer- 
schen 128-Bit-Registere entspricht. den (z. B. eine hoch bewertete Operation und eine niedrig 

Jeder der hoch und niedrig bewerteten Mikrobefehle bewertete Operation). AnsteUe des unabhangigen Decodie- 
weist somit zugehOrige Eintrage in der Registerabbildungs- rens des Makrobefehls durch zwei Decodierer, um die hoch 
tabelle sauf, die denjeweiligen Operanden entsprechen. Die 65 und die niedrig bewertete Operation zu erzeugen, wie es ty- 
Mikrobefehle werden dann in eine Einplanungsstufe (bei ei- pischerweise bei bekannten Prozessorimplementierungen 
nem AuBer-der-Reihe-Prozessor) oder an eine Ausfiihrungs- erforderlich sein wtirde, konnen als Merianal der vorhegen- 
stufe (bei einem In-der-Reihenfolge-Prozessor) bewegL Je- den Ausfuhrungsfonn beide Mikrobefehle durch den glei- 
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chen Decodierer erzeugt werden. Bei diesem Beispiel wild rungstechniken sind Fachleuten auf diesem Gebiet klar. 
djes durch die Replikationslogik 1150 ausgefiihrt, welche Obwohl aus Grttnden der Vereinfachung nur ein einzelner 
enttfeder die hoch bewertete oder die niedrig bewertete Makrobefehl gezeigt ist, der zu einem vorgegebenen Zeit- 
Operation repliziert und nachfolgend die rich eigebende re- punkt bei dem daigestellten Ausflihrungsbeispiel decodiert 
plizierte Operation geeignet modifiziert, um die verbid- 5 wird, ktfnnen bei altemativen Ausfiihrungsbeispielen meh- 
bende Operation zu erzeugen. Wie oben beschrieben wurde, rere Makrobefehle gleichzeitig decodiert werden. Dariiber 
ist es wichtig, daB durch sorgffiltiges Codieren des Registe- hinaus ist es klar, daB die Mikrobefehlsreplikation eine brei- 
radrefiraums die von den Mikrobefehlen adressierten Regi- tere Anwendung findet, als die bei dem obigen AusfUh- 
ster (z. B. die logischen Quell- und Zielregister) so gebildet rungsbeispiel dargestellte. Beispielsweise ktinne auf eine 
werden kttonen, daB sie sich durch einziges Bit unterschei- io Weise, die ahnlich der oben beschriebenen ist, Makrobe- 
den. Im Bgebnis kann die Modifikationslogik 1160 in ihrer fehle ftir gepackte Daten voller Breite und partieller Breite 
einfachsten Form einen oder mehrere Inverter aufweisen, durch denselben Decodierer decodiert werden. Sofern ein 
um die richtigen Bits zu invertieren, urn eine hoch bewertete Prefix verwendet wird, um Makrobefehle ftir gepackte Da- 
Operation aus einer niedrig bewerteten Operation und um- ten voller Breite und partieller Breite zu unterscheiden, kann 
gekehrt zu erzeugen. In jedem Fall wird dann der replizierte 15 der Decodierer einfach den Prefix ignorieren und beide Ar- 
Mikrobefehl zum Multiplexer 1170 weiteigeleitet Der Mul- ten von Befehlen auf die gleiche Weise decodieren. Dann 
tiplexer 1170 empfangt dariiber hinaus einen von dem Deco- werden die geeigneten Bits in den sich eigebenden Mikroo- 
dierer 1120 erzeugten Mikrobefehl. Bei diesem Beispiel gibt perationen modifiziert, um selektiv die Veraibeitung fiir ent- 
der Multiplexer unter der Steuerung eines Gtiltigkeitsdeco- weder sSmtliche oder eine Untermenge der Datenelemente 
dierers 1180 den replizierten Mikrobefehl fiir gepackte Da- 20 zu ermGglichen. Auf diese Weise kSnnen Mikrobefehle fiir 
tenoperationen (die Operationen fiir gepackte Daten par- gepackte Daten voller Breite aus Mikrobefehlen fiir ge- 
tieller Breite umfassen) aus und gibt den Mikrobefehl aus, packte Daten partieller Breite erzeugt werden oder umge- 
der vom Decodierer 1120 empfangen wurde, fiir von ge- kehrt, wodurch sich die Komplexitft des Decodierere verrin- 
packten Datenoperationen abweichende Operationen. Folg- gert. 
lich ist es vorteilhaft, die Befehlscodeabbildung zu optimie- 25 

ren, um die Erfassung gepackter Datenoperationen durch die Patentanspriiche 
Replikationslogik 1150 zu vereinfachen. Wenn beispiels- 
weise nur ein geringer Abschnitt des Makrobefehls fiber- 1. Prozessor mit einer Mehrzahl von Registern und ei- 
priift werden muB, um gepackte Datenoperationen von an- ner Registerumbenennungseinheit, die mit der Mehr- 
deren Operationen zu unterscheiden, so konnte eine gerin- 30 zahl von Registern gekoppelt ist, um eine Architektur- 
gere Schaltungsmenge durch den Giiltigkeitsdecodierer registerdatei zum Speichem gepackter Datenoperanden 
1180 benutzt werden. zur VerfUgung zu stellen, wobei jeder der gep^ackten 
Bei einer Implementierung, die Quelldateneleinente zu Datenoperanden eine Mehrzahl von Datenelementen 
dem logischen Zielregister zum Zwecke der Ausfiihrung aufweist, 
von Operationen fi^ gepackte D 35 dadurch gekennzeichnet, 

leitet, kann zusStzlich zur Auswahllogik, ahnlich der die un- daB ein Decodierer mit der Registerumbenennungsein- 

ter Bezugnahme auf die Fig. 5A und 5C beschrieben worden heit gekoppelt ist, um einen ersten und einen zweiten 

ist, Logik enthalten sein, um entweder die hoch oder die Satz von Befehlen zu decodieren, die jeweils wenig- 

niedrig bewertete Operation zu eliminieren (zu "vernich- stens ein Register in der Architekturregisterdatei spezi- 

ten"). Vorzugsweise wird aus Leistungsgriinden der unwe- 40 fizieren, wobei jeder Befehl in dem ersten Satz von Be- 

senthche Mikrobefehl friih in der Pipeline eliminiert Diese fehlen Operationen an samtlichen in dem wenigstens 

Eliminierung kann gemSB dem daigestellten Ausfiihrungs- einen spezifizierten Register gespeicherten Datenele- 

beispiel ausgefiihrt werden, indem ein Mikrobefehlsaus- mente spezifiziert, wobei jeder Befehl des zweiten Sat- 

wahlsignal verwendet wird, das von der Mikrobefehlslfin- zes von Befehlen eine Operation an nur einer Unter- 

genbestimmungsschaltung 1190 ausgegeben wird. Die Mi- 45 menge der in dem wenigstens einen spezifizierten Re- 

krobefehlsiang^nbestimmungsschaltung 1190 tiberpriift ei- gister gespeicherten Datenelemjenten spezifiziert, und 

nen Abschnitt des Makrobefehls und erzeugt das Mikrobe- daB eine Ausfiihrungseinheit partiello- Breite mit dem 

fehlsauswahlsignal, welches eine spezielle Kombination ei- Decodierer gekoppelt ist, um entweder von dem erpten 

ner oder mehrerer Mikrobefehle anzeigt, die weiter unten in oder dem zweiten Satz von Befehlen spezifizierte Ope- 

der Pipeline ausgefiihrt werden sollen. Im Falle eines skala- 50 rationen auszufiihren. 

ren SIMD-Befehls wird nur einer der sich ergebenden hoch 2. Prozessor nach Anspruch 1, dadurch gekennzeich- 

und niedrig bewerteten Operationen gestattet, fortzufahren. net, daB die Untermenge der in einem spezifizierten 

Beispielsweise kann das Mikrobefehlsauswahlsignal durch wenigstens einen Register gespeicherten Datenele- 

eine Bitmaske reprflsentiert sein, die diejenigen der Mikro- mente einander entsprechende am geringsten bewertete 

befehle identifiziert, die beibehalten werden sollen, und die- 55 Datenelemente umfaBt 

jenigen, die eliminiert werden sollen. Altemativ kann das 3. Prozessor nach Anspruch 1 oder 2, gekennzeichnet 

Mikrobefehlsauswahlsignal einfach die Nummer der Mikro- durch eine Ausfiihrungseinheit zum selektiven Ausfiih- 

befehle von einem vorgegebenen Standpunkt aus anzeigen, ren einer spezifizierten Operation an einem oder meh- 

die eliminiert bzw. zuriickgehalten warden sollen. Die zum reren Datenelementen in dem spezifizierten wenigstens 

Ausfilhren der oben beschriebenen Beseitigung erforderli- 60 einen Register in AbhSngigkeit davon, ob die spezifi- 

che Logik variiert in AbhMngigkeit vom Steuerungsmecha- zierte Operation dem ersten oder dem zweiten Satz von 

nismus, der die Mikrobefehle durch den Rest der Pipeline Befehlen zugeordnet ist 

leitet Wenn beispielsweise die Mikrobefehle in eine Warte- 4. Prozessor nach Anspruch 3, dadurch gekennzeich- 

schlange eingereiht werden, wtirde Logik hinzugefiigt wer- net, daB die Ausfiihrungseinheit eine Mehrzahl von 

den, um den Kopf- und den Ende-Zeiger der Mikrobef ehls- 65 Multiplexern aufweist, um zwischen einem Ergebnis 

warteschlange zu bearbeiten, um zu bewirken, daB ungiiltige der spezifizierten Operation und einem vorgegebenen 

Mikrobefehle durch nachfolgend erzeugtegtiltige Mikrobe- Wert zu wflhlen. 

fehle ttberschrieben werden. Zahlreiche weitere Eliminie- 5. Der Prozessor nach Anspruch 3, dadurch gekenn- 
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zeichnet, daB die Ausfiihrungseinheit. eine Mehrzahl 
von Multiplexern aufweist, urn zwischen einem der 
Nvenigstens einen Datenelemente und einer Identit&s- 
funktion zur Eingabe an die spezifizierte Operation zu 
wfihlen. 5 

6. Verfahren zum Ausfiihren eines Makrobefehls in ei- 
nem Prozessor, wobei 

ein einzelner Makrobefehl empfangen wird, der zumin- 
dest zwei logische Register in einer Registerdatei ge- 
packter Daten spezifiziert, wobei die beiden logischen 10 
Register einen ersten gepackten Datenoperanden bzw, 
einen zweiten gepackten Datenoperanden speichern, 
die einander entsprechende Datenelemente aufweisen, 
und 

eine erste und eine zweite Mehrzahl der einander ent- 15 
sprechenden Datenelemente aus dem ersten bzw dem 
zweiten gepackten Datenoperanden unabhSngig zu 
verschiedenen Zeiten unter Verwendung der gleichen 
Schaltung verarbeitet werden, urn unabhangig eine er- 
ste und eine zweite Mehrzahl von Ergebnisdatenele- 20 
menten zu erzeugen, indem 

eine von einem einzelnen Makrobefehl spezifizierte 
Operation an zumindest einem Paar einander entspre- 
chender Datenelemente in der ersten und der zweiten 
Mehrzahl entsprechender Datenelemente durchgefdhrt 25 
wird, um zumindest ein Ergebnisdatenelement der er- 
sten und zweiten Mehrzahl von Ergebnisdatenelemen- 
ten zu erzeugen, und 

die verbleibenden Eigebnisdatenelemente der ersten 
und zweiten Mehrzahl von Ergebnisdatenelementen 30 
auf wenigstens einen vorgegebenen Wert gesetzt wer- 
den, und 

die erste und zweite Mehrzahl von Ergebnisdatenele- 
menten in einem einzigen logischen Register als dritter 
gepackter Datenoperand gespeichert werden. 35 

7. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine vorgegebene Wert Werte 
der Datenelemente von entweder dem ersten gepackten 
Datenoperanden oder dem zweiten gepackten Daten- 
operanden umfafit 40 

8. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine vorgegebene Wat Null ist. 

9. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine vorgegebene Wert eine 
Keine-Zahl(NaN>Anzeige ist 45 
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